Hồi quy cox là gì? Các bài nghiên cứu khoa học liên quan

Hồi quy Cox là phương pháp phân tích sinh tồn bán tham số nhằm ước lượng tác động của biến giải thích lên nguy cơ xảy ra sự kiện theo thời gian mà không cần giả định phân phối mốc cơ bản. Mô hình Cox sử dụng hàm hợp lý từng phần (partial likelihood) để so sánh tỷ lệ nguy cơ tương đối giữa các nhóm và ước tính hệ số β phản ánh ảnh hưởng của từng biến giải thích.

Tóm tắt tổng quan

Hồi quy Cox (Cox proportional hazards model) là phương pháp phân tích sinh tồn bán tham số, ước lượng tác động của các biến giải thích lên nguy cơ xảy ra sự kiện theo thời gian mà không cần giả định phân phối mốc cơ bản. Mô hình này cho phép so sánh nguy cơ tương đối giữa các nhóm khác nhau thông qua hệ số β, thể hiện dưới dạng hazard ratio, rất phổ biến trong y sinh, dịch tễ học và kỹ thuật độ tin cậy (PubMed Central).

Mô hình Cox không yêu cầu xác định hàm hazard cơ bản h0(t)h_0(t), do đó linh hoạt hơn mô hình Parametric Survival. Việc ước lượng dựa trên hàm hợp lý từng phần (partial likelihood) đảm bảo tính hiệu quả và độ tin cậy cao trong điều kiện dữ liệu bị censored (có quan sát bị chặn). Độ mạnh của phương pháp nằm ở khả năng xử lý dữ liệu quan sát sống còn mà không cần giả định ngặt nghèo về phân phối thời gian đến sự kiện.

Các ứng dụng tiêu biểu bao gồm ước lượng nguy cơ tử vong ở bệnh nhân ung thư, so sánh thời gian thất nghiệp trong kinh tế lao động, và đánh giá tuổi thọ thiết bị trong kỹ thuật. Kết quả phân tích thường báo cáo dưới dạng hazard ratio kèm khoảng tin cậy 95%, giúp đánh giá ý nghĩa thống kê và thực tiễn của các biến độc lập.

Khái niệm cơ bản

Mô hình Cox định nghĩa hàm nguy cơ (hazard function) tại thời điểm tt cho cá thể ii là hàm tích giữa hazard cơ bản và thành phần phụ thuộc biến giải thích:

hi(t)=h0(t)exp(βTXi)h_i(t) = h_0(t)\,\exp(\beta^T X_i)

Trong đó, h0(t)h_0(t) là hàm hazard mốc (baseline hazard) phản ánh nguy cơ cơ bản chung cho toàn bộ quần thể, XiX_i là vector gồm các biến giải thích (covariates) của cá thể ii, và β\beta là vector hệ số cần ước lượng. Biểu thức exp(βTXi)\exp(\beta^T X_i) cho biết hệ số nhân nguy cơ theo từng đơn vị biến giải thích.

Các biến giải thích có thể bao gồm cả biến liên tục và biến phân loại. Đối với biến phân loại, kỹ thuật one-hot encoding hoặc dummy coding được sử dụng để đưa vào mô hình. Biến liên tục cần kiểm tra tính tuyến tính log-hazard thông qua đồ thị Martingale residuals để đảm bảo độ phù hợp của mô hình.

Giả thiết tỷ lệ nguy cơ

Giả thiết proportional hazards (PH) yêu cầu tỷ lệ hazard giữa hai cá thể không đổi theo thời gian, cụ thể:

hi(t)hj(t)=exp(βT(XiXj))\frac{h_i(t)}{h_j(t)} = \exp\bigl(\beta^T (X_i - X_j)\bigr)

Giả thiết này là nền tảng của mô hình Cox, cho phép tách biệt phần thời gian h0(t)h_0(t) khỏi thành phần phụ thuộc biến XX. Nếu PH không được thoả mãn, hệ số β có thể thay đổi theo thời gian, dẫn tới sai lệch ước lượng và giải thích.

Kiểm định giả thiết PH thường thực hiện bằng phương pháp Schoenfeld residuals, đánh giá mối tương quan giữa residual và thời gian. Ngoài ra, đồ thị log-minus-log survival plots cũng giúp trực quan hoá tính tỉ lệ: các đường log(-log S(t)) của các nhóm khác nhau nên song song nếu PH được thoả mãn (PMC).

  • Kiểm định Schoenfeld residuals: p>0.05p>0.05 cho thấy không vi phạm giả thiết PH.
  • Đồ thị log(-log S(t)): các đường song song minh chứng cho PH.
  • Mô hình phân tầng (stratified Cox): áp dụng khi PH vi phạm giữa các tầng.

Phương pháp ước lượng

Hệ số β\beta được ước lượng thông qua tối đa hóa hàm hợp lý từng phần (partial likelihood), bỏ qua hàm hazard mốc không cần biết cụ thể. Hàm hợp lý từng phần được định nghĩa như sau:

(β)=i:δi=1[XiTβlogjR(ti)eXjTβ]\ell(\beta)=\sum_{i:\delta_i=1}\Bigl[X_i^T\beta - \log\sum_{j\in R(t_i)}e^{X_j^T\beta}\Bigr]

Trong đó, δi\delta_i là chỉ dấu sự kiện (1 nếu cá thể ii xảy ra sự kiện, 0 nếu censored), và R(ti)R(t_i) là tập các cá thể vẫn còn rủi ro tại thời điểm tit_i. Phần tử thứ nhất trong tổng thể hiện đóng góp của cá thể có sự kiện, phần tử thứ hai là log tổng các nguy cơ tại thời điểm đó, đảm bảo tính loại trừ censored observation.

Ước lượng β tiến hành bằng phương pháp Newton–Raphson hoặc Fisher scoring, đảm bảo hội tụ nhanh. Ma trận Hessian được sử dụng để xác định sai số chuẩn (standard error) của mỗi hệ số, từ đó tính ra khoảng tin cậy (confidence interval) và kiểm định Wald để đánh giá ý nghĩa thống kê của biến giải thích.

Thuật toánƯu điểmNhược điểm
Newton–RaphsonHội tụ nhanhCần tính Hessian đầy đủ
Fisher scoringỔn định hơn với dữ liệu lớnChậm hơn Newton–Raphson

Độ phức tạp tính toán của hàm partial likelihood tỷ lệ với số sự kiện và biến giải thích; trong trường hợp nhiều biến, cần lưu ý đa cộng tuyến và có thể áp dụng penalized Cox (ví dụ Lasso hoặc Ridge penalty) để tránh overfitting.

Đánh giá mô hình

Hiệu năng của mô hình Cox thường được đánh giá thông qua ba kiểm định chính: likelihood ratio test, Wald test và score (log-rank) test. Cả ba kiểm định đều so sánh mô hình đầy đủ với mô hình null (không có biến giải thích) để xác định ý nghĩa thống kê tổng thể của biến số (ETH Zürich).

Chỉ số concordance (c-index) đo mức độ phân biệt (discrimination) của mô hình, thể hiện xác suất đôi cá thể được dự đoán đúng thứ tự thời gian đến sự kiện. Giá trị c-index dao động từ 0.5 (dự đoán ngẫu nhiên) đến 1.0 (dự đoán hoàn hảo), thường chấp nhận c-index ≥0.7 là mô hình có khả năng phân biệt tốt.

Brier score đánh giá độ chính xác tổng thể bằng cách so sánh xác suất sinh tồn dự đoán với quan sát thực tế. Brier score càng thấp càng tốt. Phương pháp bootstrapping hoặc cross‐validation được dùng để đánh giá tính ổn định và khả năng khái quát của mô hình.

Mở rộng mô hình

Để xử lý khi giả thiết proportional hazards không thỏa mãn, có thể sử dụng Cox phân tầng (stratified Cox) bằng cách phân tầng theo biến vi phạm PH, cho phép hazard cơ bản khác nhau giữa các tầng nhưng chung hệ số β:

hi(t)=h0k(t)exp(βTXi),itaˆˋng kh_{i}(t) = h_{0k}(t)\,\exp(\beta^T X_i),\quad i\in \text{tầng }k

Biến thời gian-thay đổi (time–dependent covariates) mở rộng khả năng mô hình hóa khi giá trị covariate thay đổi theo thời gian, ví dụ mức huyết áp hoặc mức tải thuốc. Mô hình này ghi nhận ảnh hưởng của covariate tại thời điểm t lên hazard hiện tại.

Penalized Cox (Lasso, Ridge, Elastic Net) thêm thành phần phạt vào hàm likelihood để xử lý đa cộng tuyến và chọn biến tự động. Ví dụ Lasso-Cox sử dụng penalty λjβj \lambda \sum_j |\beta_j| , vừa ước lượng hệ số vừa loại bỏ biến không quan trọng (JSTOR).

Ứng dụng thực tiễn

Trong nghiên cứu y sinh, Cox regression giúp xác định các yếu tố nguy cơ ảnh hưởng đến thời gian sống của bệnh nhân ung thư. Ví dụ, biến độ tuổi, giai đoạn bệnh và tình trạng di căn được đưa vào mô hình để ước lượng hazard ratio, hỗ trợ quyết định phác đồ điều trị.

Trong dịch tễ học, mô hình này phân tích thời gian đến tái nhiễm hoặc tử vong do nhiễm trùng, kết hợp với phân tích chuỗi thời gian sự kiện dịch bệnh để đánh giá hiệu quả can thiệp y tế cộng đồng.

Trong kỹ thuật độ tin cậy, Cox regression được dùng để phân tích thời gian hỏng hóc của linh kiện điện tử hoặc cơ khí. Covariate như nhiệt độ môi trường, cường độ tải và tần suất sử dụng được đưa vào để dự báo tuổi thọ và lập kế hoạch bảo trì.

Thực thi bằng phần mềm

Trong R, gói survival cung cấp hàm coxph() để ước lượng mô hình:

  • fit <- coxph(Surv(time, status) ~ x1 + x2 + x3, data = mydata)
  • summary(fit) trả về hệ số β, sai số chuẩn, hazard ratio và p-value.
  • cox.zph(fit) kiểm định Schoenfeld residuals, plot(cox.zph(fit)) vẽ log-minus-log plot.

Trong Python, thư viện lifelines cung cấp lớp CoxPHFitter:

  1. from lifelines import CoxPHFitter
  2. cph = CoxPHFitter(); cph.fit(df, duration_col='T', event_col='E'); cph.print_summary()
  3. cph.check_assumptions(df) tự động kiểm tra giả thiết PH.

Các phần mềm khác như SAS (PROC PHREG), Stata (stcox) và SPSS (COXREG) cũng hỗ trợ phân tích Cox với giao diện đồ họa hoặc script.

Hạn chế và thách thức

Mô hình Cox không ước lượng được hàm hazard mốc h0(t)h_0(t), chỉ ước lượng tương đối hazard ratio. Điều này hạn chế khi cần dự báo tuyệt đối xác suất sinh tồn tại thời điểm cụ thể.

Giả thiết proportional hazards là điểm yếu khi covariate có tác động thay đổi theo thời gian. Mô hình mở rộng như stratified Cox hay time–dependent covariates khắc phục phần nào nhưng tăng độ phức tạp và đòi hỏi dữ liệu chi tiết hơn.

Dữ liệu censored không ngẫu nhiên (informative censoring) có thể gây sai lệch kết quả. Cần kiểm tra và nếu cần sử dụng phương pháp chung (joint modeling) hoặc tính trọng số inverse probability of censoring weights (IPCW) để điều chỉnh.

Khi số lượng biến giải thích lớn so với số sự kiện, dễ gặp overfitting và đa cộng tuyến. Giải pháp bao gồm penalized Cox, giảm chiều dữ liệu (dimension reduction) hoặc tăng kích thước mẫu nghiên cứu.

Các bài báo, nghiên cứu, công bố khoa học về chủ đề hồi quy cox:

Chỉ số tiên đoán dựa trên mười bốn RNA không mã hóa dài nhằm dự đoán khả năng sống sót không tái phát cho bệnh nhân ung thư bàng quang xâm lấn cơ Dịch bởi AI
BMC Medical Informatics and Decision Making - - 2020
Abstract Giới thiệu Ung thư bàng quang (BC) được xem là một trong những loại ung thư nguy hiểm nhất trên toàn thế giới. Tuy nhiên, vẫn còn thiếu những chỉ số đầy đủ để dự đoán tiên lượng cho bệnh nhân BC. Bài nghiên cứu này nhằm thiết lập một dấu ấn tiên đoán tiên lượng dựa trên RNA không mã hóa dài (lncRNA) cho bệnh nhân BC xâm l...... hiện toàn bộ
#ung thư bàng quang #RNA không mã hóa dài #tiên đoán tiên lượng #sống sót không tái phát #phân tích hồi quy Cox.
Ước tính tác động của các yếu tố lên thời gian sống sót của khoản vay của khách hang cá nhân tại ngân hàng thương mại bằng mô hình Laplace
Tạp chí Kinh tế và Phát triển - Số 287 - Trang 66-75 - 2021
Việc ước lượng và dự báo thời điểm mà khoản vay bị vỡ nợ là bài toán quan trọng trong việc quản trị rủi ro của ngân hàng. Người ta thường sử dụng các mô hình Cox PH hay AFT để nghiên cứu bài toán này. Tuy nhiên, các mô hình này dựa trên giả định là tác động của các biến giải thích lên toàn bộ thời gian sống sót của khoản vay là đồng nhất và giả thiết này là không đúng trong nhiều trường hợp. Trong...... hiện toàn bộ
#Hồi quy phân vị #hồi quy Laplace #mô hình Cox #mô hình AFT #phân tích sống sót
Các đặc điểm tĩnh và động của bệnh nhân như là những yếu tố dự đoán về tái phạm hình sự: Một nghiên cứu theo chiều dọc trong mẫu tâm thần pháp lý Hà Lan Dịch bởi AI
Law and Human Behavior - - 2006
Nếu các bác sĩ lâm sàng trong tâm thần pháp lý muốn giảm thiểu nguy cơ tái phạm ở bệnh nhân của họ, họ cần hiểu rõ về các yếu tố rủi ro động, và có bằng chứng cho thấy những yếu tố này có sức mạnh dự đoán cao hơn so với các chỉ số rủi ro tĩnh. Các yếu tố dự đoán cần được đánh giá trong các hoàn cảnh lâm sàng thực tế. Nghiên cứu này nhằm xác thực các biến động và tĩnh như là các yếu tố dự đoán tái ...... hiện toàn bộ
#tâm thần pháp lý #tái phạm hình sự #yếu tố rủi ro tĩnh #yếu tố rủi ro động #mô hình dự đoán #hồi quy Cox #phân tích ROC
Chỉ số gánh nặng ung thư dư (RCB) như một dấu hiệu tiên lượng hợp lệ ở bệnh nhân ung thư vú sau hóa trị liệu neoadjuvant Dịch bởi AI
BMC Cancer - Tập 24 - Trang 1-12 - 2024
Chỉ số gánh nặng ung thư dư (RCB) được đề xuất như một tiêu chí đánh giá phản ứng trong bệnh nhân ung thư vú điều trị bằng hóa trị liệu neoadjuvant (NAC). Nghiên cứu này đánh giá sự liên quan của RCB với sống không tái phát (RFS). Dữ liệu lâm sàng của 254 bệnh nhân ung thư vú đã nhận NAC từ năm 2016 đến 2020 đã được thu thập hồi cứu. Mối quan hệ giữa các yếu tố lâm sàng - bệnh lý và RFS được đánh ...... hiện toàn bộ
#ung thư vú #hóa trị liệu neoadjuvant #chỉ số gánh nặng ung thư dư #hồi quy Cox #sống không tái phát #dấu hiệu sinh học
Nghiên cứu tỷ lệ tử vong do ung thư ở công nhân sản xuất xi măng tại Pháp Dịch bởi AI
Internationales Archiv für Arbeitsmedizin - Tập 84 - Trang 167-173 - 2010
Nghiên cứu nhằm phân tích tỷ lệ tử vong và nguyên nhân của nó, đặc biệt là ung thư, trong số công nhân sản xuất xi măng tại Pháp. Một nhóm đối tượng gồm tất cả công nhân làm việc ít nhất 1 năm tại một trong bốn công ty xi măng lớn tại Pháp đã được tập hợp (9.118 công nhân, 122.124 năm người theo dõi từ 1990 đến 2005). Một phân loại tiêu đề công việc chung đã được sử dụng để phân tích các yếu tố rủ...... hiện toàn bộ
#tử vong #ung thư #công nhân #sản xuất xi măng #rủi ro nghề nghiệp #phân tích hồi quy Cox
Mối liên hệ giữa chỉ số chống oxi hóa chế độ ăn tổng hợp và tỷ lệ tử vong do bệnh tim mạch ở bệnh nhân tiểu đường type 2 Dịch bởi AI
Diabetology & Metabolic Syndrome - Tập 15 - Trang 1-11 - 2023
Nghiên cứu mối liên hệ giữa chỉ số chống oxi hóa chế độ ăn tổng hợp (CDAI) với nguy cơ tử vong do bệnh tim mạch (CVD) ở những người mắc tiểu đường type 2 (T2D). Nghiên cứu đoàn hệ tích cực này bao gồm 7551 bệnh nhân mắc T2D đã tham gia khảo sát sức khỏe và dinh dưỡng quốc gia (NHANES) từ năm 1999 đến năm 2018. Dữ liệu thống kê về tỷ lệ tử vong được thu thập bằng cách liên kết cơ sở dữ liệu đoàn hệ...... hiện toàn bộ
#Chỉ số chống oxy hóa chế độ ăn tổng hợp #tử vong do bệnh tim mạch #tiểu đường type 2 #nghiên cứu đoàn hệ #hồi quy Cox đa biến
Phân Tích Toàn Diện Về Đột Biến Mô Mở Trong Các Gen Chỉ Huy Của Ung Thư Biến Hình Tuyến Tuỵ Được Cắt Bỏ Cho Thấy Sự Kết Hợp Giữa KRAS G12D và TP53 Đột Biến Là Yếu Tố Dự Đoán Độc Lập Về Kết Quả Lâm Sàng Dịch bởi AI
Annals of Surgical Oncology - Tập 29 - Trang 2720-2731 - 2021
Tiên lượng trong ung thư biểu mô tuyến tụy ống (PDAC) vẫn còn kém mặc dù các liệu pháp điều trị toàn thân và kỹ thuật phẫu thuật đã được cải thiện. Việc xác định các dấu hiệu sinh học để nâng cao hiểu biết về sinh học khối u và đạt được dự đoán cá thể hóa tốt hơn có thể giúp cải thiện kết quả. Mục tiêu của chúng tôi là làm sáng tỏ vai trò dự đoán của bốn đột biến gen chỉ huy chính (KRAS, TP53, SMA...... hiện toàn bộ
#đột biến gen #ung thư biểu mô tuyến tụy #KRAS #TP53 #tiên lượng #sống sót #mô hình hồi quy Cox
Nghiên cứu về mạng nơron mờ Wilcoxon bán tham số Dịch bởi AI
Soft Computing - Tập 16 - Trang 11-21 - 2011
Mạng nơron mờ (FNN) từ lâu đã được công nhận là một cỗ máy học hiệu quả và mạnh mẽ cho các vấn đề học máy chung. Gần đây, mạng nơron mờ Wilcoxon (WFNN), mở rộng phương pháp Wilcoxon dựa trên thứ bậc cho các vấn đề hồi quy tham số tuyến tính sang mạng nơron phi tham số, đã được đề xuất nhằm cải thiện khả năng chống lại các điểm ngoại lệ. FNN và WFNN là các mô hình phi tham số trong nghĩa là chúng k...... hiện toàn bộ
#mạng nơron mờ #mạng nơron mờ Wilcoxon #hồi quy bán tham số #mô hình phi tham số
Tác động của sự không khớp giữa prosthesis và bệnh nhân đối với tỷ lệ tử vong sớm và muộn sau phẫu thuật thay van động mạch chủ Dịch bởi AI
Journal of Cardiothoracic Surgery - Tập 8 - Trang 1-8 - 2013
Ảnh hưởng của sự không khớp giữa prosthesis và bệnh nhân (PPM) đối với tỷ lệ sống sót sau phẫu thuật thay van động mạch chủ (AVR) vẫn còn gây tranh cãi. Trong nghiên cứu này, chúng tôi đã tìm cách xác định tác động của PPM đến tỷ lệ tử vong sớm (≤30 ngày) và muộn (>30 ngày) sau AVR hoặc AVR kết hợp với phẫu thuật bắc cầu động mạch vành (AVR với CABG). Giữa tháng 1 năm 1998 và tháng 3 năm 2012, 297...... hiện toàn bộ
#tỷ lệ tử vong sớm #tỷ lệ tử vong muộn #thay van động mạch chủ #không khớp prosthesis-bệnh nhân #PPM #CABG #Kaplan-Meier #hồi quy logistic #hồi quy Cox
Các yếu tố nguy cơ trong bệnh lý cơ do bệnh nặng trong giai đoạn đầu của bệnh nặng: một nghiên cứu quan sát theo thời gian Dịch bởi AI
Critical Care - Tập 14 - Trang 1-12 - 2010
Màng cơ không kích thích cho thấy sự xuất hiện của bệnh lý cơ do bệnh nặng (CIM) trong giai đoạn đầu của bệnh nặng. Chúng tôi đã điều tra các yếu tố nguy cơ thuận lợi cho màng cơ không kích thích tại thời điểm khởi phát của bệnh nặng. Chúng tôi đã thực hiện các đo lường liên tiếp về khả năng kích thích của màng cơ sau khi kích thích cơ trực tiếp (dmCMAP) ở 40 bệnh nhân trong phòng chăm sóc đặc biệ...... hiện toàn bộ
#bệnh lý cơ do bệnh nặng #màng cơ không kích thích #yếu tố nguy cơ #viêm #hồi quy Cox
Tổng số: 17   
  • 1
  • 2